Accidentalidad en medellín periodo de 2014 a 2020 y predicción de accidentalidad para los años 2021 y 2022.

23/11/2022

- Daniel torres aguirre
- Deyner elías López Pineda
- Wilmar Andrés García Bedoya
- Andres Camilo Garcia Moreno
- Amilder Stewin Ospina Tobón

Introducción

El siguiente informe, trata acerca del análisis de accidentalidad en Medellín durante los periodos 2014 a 2020, realizaremos una revisión de los datos con el fin de encontrar el comportamiento de estos, segmentando por diferentes tipos de variables, a su vez realizaremos el agrupamiento mediante técnicas de clustering y analizaremos el comportamiento según los diferentes grupos, también se realizara el entrenamiento de un modelo con el fin de realizar una predicción para los años 2021 y 2022, a su vez, crearemos una aplicación web en la que se podrán consultar datos históricos, ver los agrupamientos y ver la predicción por diferentes tipos de segmentación para los años 2021 y 2022.

1. Datos

Los datos fueron obtenidos de la plataforma medata, la base de datos cuenta con un total de 270.765 observaciones con 18 variables, datos obtenidos en el periodo comprendido entre el año 2014 y 2020, en la siguiente sección realizamos la limpieza de los datos y organización de los mismos para realizar un análisis descriptivo de estos y posteriormente realizar los agrupamiento solicitados y la predicción de accidentalidad.

A continuación, se hace la revisión y descripción de cada variable con el fin de encontrar datos inconsistentes, esto se realizo revisando el csv en excel para datos inconsistentes y en R para los datos faltantes.

AÑO: año de ocurrencia del incidente. (2014 hasta 2016)

CBML: es el código catastral que corresponde al código comuna, barrio, manzana, lote catastral de un predio. En este encontramos 18.156 vacíos y adicionalmente tiene 962 registros con caracteres extraños como: AUC1, AUC2, Inst_14, Inst_16, Inst_18, Inst_19, Sin Inf, SN01, para un total de 19.118 registros mal estructurados o vacíos.

CLASE_ACCIDENTE: clasificación del IPAT (Informe Policivo de Accidente de tránsito) sobre la clase de accidente de tránsito, hay 5 tipos de clasificación, choque, atropello, volcamiento, caída de ocupante, incendio y adicional se hay otra clasificación denominada como “otro”. En esta variable encontramos un total de 6 datos vacíos los cuales se cambiarán por “otro”.

DISEÑO: esta corresponde al sitio donde ocurrió el accidente (Ciclorruta, Glorieta, Intersección, Lote o Predio, Paso a Nivel, Paso Elevado, Paso Inferior, Pontón, Puente, Tramo de vía, Túnel, Vía peatonal). En esta encontramos 1.148 vacíos los cuales se reemplazarán por “otro”.

BARRIO: barrio de ocurrencia del incidente vial, en este encontramos 19.006 vacíos,Además se tienen 1.822 registros adicionales con carácteres como: números entre 0 y 9.086, AUC1, AUC2, Inst, Sin Inf, Sin nombre.

COMUNA: denominación con la cual se identifica cada Comuna o Corregimiento, en este encontramos 12.798 vacíos ademas se tienen 7.064 registros adicionales con carácteres como: No Georef, 0, In, AU, Sin Inf, SN.

NUMCOMUNA: número de la comuna en la que ocurrió incidente vial, se encontraron 20.116 registros adicionales con caracteres como: AU, In, Sin Inf, SN.

LOCATION: fuente de información con la cual se realizó la geo codificación, contiene la latitud y longitud, Posteriormente será separada en dos variables.

X: coordenada X en metros del accidente, en sistema de coordenadas MAGNA Medellín Local.

Y: coordenada Y en metros del accidente, en sistema de coordenadas MAGNA Medellín Local.

NRO_RADICADO: consecutivo que asigna UNE, según el orden de llegada de los expedientes para su diligenciamiento.

MES: mes de ocurrencia del incidente vial. Esta variable no se modifica.

GRAVEDAD_ACCIDENTE: clasificación del IPAT (Informe Policial de Accidentes de Tránsito) sobre la gravedad del accidente, corresponde al resultado más grave presentado en el accidente. Daños materiales “Sólo daños”, accidente con heridos “Herido”, accidente con muertos “Muerto”,en esta variable se cambia la codificación a UTF-8

FECHA_ACCIDENTES: fecha de los accidente (formato YYYY-MM-DD hh:mi:ss), proviene del IPAT (Informe Policial de accidentes de Tránsito)

FECHA_ACCIDENTE: fecha del accidente, proviene del IPAT (Informe Policial de accidente de Tránsito) esta variable posteriormente se elimina debido a que proporciona menos información que la variable FECHA_ACCIDENTES.

EXPEDIENTE: consecutivo que asigna UNE, según el orden de llegada de los expedientes para su diligenciamiento. Esta variable posteriormente se elimina.

DIRECCION ENCASILLADA: dirección encasillada que entrega el geo codificador. Esta variable se elimina.

DIRECCION: dirección donde ocurrió el incidente. Esta variable no se modifica.

NRO_RADICADO: consecutivo que asigna UNE, según el orden de llegada de los expedientes para su diligenciamiento.

1.1 Integración de datos Geo-Medellín y depuración.

En esta sección hicimos integración entre los datos de nuestra base de datos y los datos encontrados en la plataforma Geo Medellín, esto con el fin de encontrar datos faltantes respecto a barrios, comunas, posteriormente realizaremos la depuración de la base de datos, donde eliminaremos las observaciones con datos faltantes irrecuperables y variables que no sean necesarias para el contexto de nuestro análisis.

1.1.1 Integración de datos Geo-Medellín

Para la integración de los datos usamos lo datos contenidos en la pagina web Geo medellín, de nuestra base de datos usamos la variable CBML y con los primeros 4 dígitos poder obtener los datos faltantes de barrio y comuna cruzando los datos entre nuestra base y la de geo Medellín.

1.1.2 Depuración

Luego de hacer la revisión de las variables y eliminar los datos irrecuperables, procedemos a eliminar las variables temporales que creamos y otras variables presentes en la base de datos las cuales consideramos que no son necesarias para realizar el proyecto.

1.1.3 Días feriados

Para las fechas especiales se crean dos nuevas variables; FESTIVIDAD y TIPO_FESTIVIDAD. Estas variables provienen de una base de datos externa que se adiciona a la base de análisis y abarca los días feriados en Colombia desde 2014 hasta 2022.

FESTIVIDAD: contiene dos etiquetas (SI/NO). SI: cuando hay festividad para ese día. NO: cuando no hay festividad para ese día,
TIPO_FESTIVIDAD: contiene seis tipos de festividad:
FESTIVO: día feriado.
NAVIDAD: 24,25 y 31 de diciembre.
SEM_SANTA: toda la semana santa, desde el lunes hasta el domingo.
BRUJAS: 31 de octubre.
MADRES: el día de madres designado para el año respectivo.
NUEVO: primero de enero de cada año.

Luego de realizar todo el pre procesamiento a la base de datos, podemos observar mediante la siguiente tabla cual fue el resultado final.





2. Análisis descriptivo

En esta sección realizaremos el análisis descriptivo por las variables que consideramos que representan una descripción de la distribución de los datos a lo largo del periodo contenido, con el fin de ver cuál es el comportamiento de los datos.

2.1 Accidentes mensuales por Año

En el año 2014 no hay registrados datos de accidentes antes del 4 de julio. Al igual que en 2014, en el año 2020 no se han registrado datos correspondientes a accidentes después del 31 de agosto.

2.2 Accidentes por día de la semana

El día que presenta mayor cantidad de personas accidentadas, es el día viernes seguido del día martes, con una diferencia de 655 accidentes registrados. Seguido de esto los días (miércoles – jueves) y (lunes – sábado), presentan una accidentalidad similar con una diferencia de 331 y 46 accidentes de diferencia, respectivamente, y el día domingo es el día con menor número de accidentes registrados.

2.3 Accidentes por mes

En la segmentación por mes, podemos ver que el mes con mayor numero de accidentes es el 8 (agosto) con 24901 accidentes registrados, algo contrastante con el mes de diciembre el cual es el mes donde mas fiestas se registran y el cual cuenta con un número de accidentes de 21450.

2.4 Accidentes por año

En los accidentes registrado entre los años 2015 a 2019 podemos ver que no hay mucha variación entre el numero de accidentes registrados en cada uno de estos, a diferencia de los años 2014 y 2020 los cuales en el dataset proporcionado solo contamos con datos desde el 4 de julio a 31 de diciembre, para los datos del 2014, y desde el 1 de enero hasta el 31 de agosto para los datos del año 2020, por esto es que podemos ver una diferencia notoria de estos dos años, respecto a los tomados de 2015 a 2019.

2.5 Accidentes por comuna

Según la gráfica, la comuna en la que mas se presentan accidentes es la candelaria, esto debido a que es la comuna ubicada en el centro de Medellín y una de las que mayor flujo de vehículos tiene.

2.6 Accidentes por clase

En la siguiente grafica podemos ver que el tipo de accidente más común es de tipo “choque”, además de esto analizamos los tipos gravedad de accidentes y podemos evidenciar que el tipo de gravedad mas concurrente es “con heridos”.


2.7 Accidentes por tipo de festividad

En la grafica de accidentes por tipo de festividad podemos ver que el mayor numero de accidentes que se presentan es la semana santa, pero esto dado que en esta categoría están incluidos los 7 días de la semana, el cual, si los dividimos en una proporción igual nos como resultado un promedio de 434 accidentes por día, por lo que están dentro de los índices de los otros tipos de festividad. Además, en la gráfica de accidentes por día feriado, vemos que los accidentes ocurridos en estas fechas representan el 4.27% de el total de los accidentes registrados en el periodo de 2014 a 2020.

Además de verificar los accidentes por tipo de festividad, también haremos revisión de la distribución de los datos respecto a si el día del accidente era o no festivo.





3. Entrenamiento de un modelo predictivo

En esta sección. construiremos y validaremos un modelo que permita predecir la accidentalidad por tipo de accidente a nivel semanal, mensual y diario. Para esto se consideran fechas especiales.

Los modelos predictivos que veremos se construirán con los datos de los años 2014, 2015, 2016, 2017 y 2018; esta será la base para entrenamiento. Los accidentes del año 2019 y 2020 se usarán para validar los modelos.

El criterio de éxito de los modelos predictivos será el MAE de la predicción.

3.1 Diaria

Empezaremos por buscar el mejor modelo para realizar las predicciones diarias.

3.1.1 Modelo 1: modelo lineal generalizado inicial

Como nos interesa predecir el número de accidentes por unidad de tiempo, resulta conveniente utilizar un modelo lineal generalizado con la distribución Poisson. Para este primer modelo, consideraremos únicamente las variables FESTIVIDAD Y DIA_SEMANA para predecir la accidentalidad.

3.1.1.2 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 367.628502, MAE: 14.509135, R2: 0.485746"

Para los datos de entrenamiento, se obtiene un MAE de 14.5091352, y un R2 de 0.4857459.

3.1.1.3 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 497.005479, MAE: 17.438356, R2: 0.433695"

Para los datos de validación del año 2019, se obtiene un MAE de 17.4383562, y un R2 de 0.4336946.

3.1.1.4 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] 20.1888

La variación entre el MAE de entrenamiento y validación es de 20.1888047%, lo cual indica un posible sobre entrenamiento. Además, el R2 es relativamente bajo, cercano al 50%. Veamos que pasa para el año 2020.

3.1.1.5 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 3139.151639, MAE: 47.422131, R2: -1.172789"

Para los datos de validación del año 2020, se obtiene un MAE de 47.4221311, y un R2 de -1.1727893. Este MAE tan alto y este R2 negativo indican que el modelo se ajusta muy pobremente a los datos del año 2020.

Sin embargo, tal como veremos a continuación, ningún modelo se ajusta bien al año 2020. Esto se puede explicar por dos posibles razones:

  1. En 2020 fue el inicio de la pandemia, y hubo muchos menos accidentes.
  2. En 2020 solo hay observaciones hasta el mes de agosto.

Por tanto, el año 2020 no nos será muy útil para validar los modelos, ya que el comportamiento de este año es muy diferente a los demás años con los que se entrenó el modelo.

3.1.1.6 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 226.8433

La variación entre el MAE de entrenamiento y validación es de 226.8432645%.

3.1.2 Modelo 2: modelo lineal generalizado, usando la variable clase

En el segundo modelo, utilizaremos las mismas variables del modelo inicial, y sumaremos la variable CLASE. Veamos su desempeño.

3.1.2.1 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 58.282099, MAE: 4.737437, R2: 0.933458"

Para los datos de entrenamiento, se obtiene un MAE de 4.737437, y un R2 de 0.9334579.

3.1.2.2 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 65.802964, MAE: 5.046652, R2: 0.926082"

Para los datos de validación del año 2019, se obtiene un MAE de 5.046652, y un R2 de 0.9260816. Estos valores son mucho mejores que los obtenidos con el modelo anterior.

3.1.2.3 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] 6.527052

La variación entre el MAE de entrenamiento y validación es de 6.5270524%; según esta cifra, no hay indicios de sobre entrenamiento. El R2 fue muy bueno tanto en entrenamiento como en validación, superior al 90%. Este modelo es un muy buen candidato para ser utilizado en las predicciones futuras.

3.1.2.4 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 355.836425, MAE: 10.483980, R2: 0.117022"

Para los datos de validación del año 2020, se obtiene un MAE de 10.4839798, y un R2 de 0.1170215. El modelo se ajusta ligeramente mejor a los datos de 2020 respecto al caso anterior, pero sigue siendo muy inadecuado para predecir la accidentalidad de este año. Tal como se explicó anteriormente, no es adecuado validar el modelo con estos datos.

3.1.2.5 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 121.3007

La variación entre el MAE de entrenamiento y validación es de 121.3006673%.

3.1.3 Modelo 3: modelo lineal generalizado, usando la variable diseño

El modelo 2 tuvo un muy buen desempeño. Aun así, sería interesante probar modelos utilizando otras variables. Para este caso usaremos las variables Festividad, Día Semana y Diseño.

3.1.3.1 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 87.901661, MAE: 5.187375, R2: 0.912845"

Para los datos de entrenamiento, se obtiene un MAE de 5.1873754, y un R2 de 0.9128454.

3.1.3.2 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 97.620890, MAE: 5.706963, R2: 0.857395"

Para los datos de validación del año 2019, se obtiene un MAE de 5.7069632, y un R2 de 0.8573946.

3.1.3.3 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] 10.01639

La variación entre el MAE de entrenamiento y validación fue de 10.0163916%; según esta cifra, no hay indicios de sobre entrenamiento. El R2 fue bastante bueno tanto en entrenamiento como en validación, cercano al 90%, pero inferior al del modelo 2. Además, el MAE también fue superior que el del modelo 2. Por tanto, descartamos este modelo.

3.1.3.4 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 464.239930, MAE: 11.781086, R2: -0.236520"

Para los datos de validación del año 2020, se obtiene un MAE de 11.7810858, y un R2 de -0.2365198.

3.1.3.5 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 127.1107

La variación entre el MAE de entrenamiento y validación es de 127.1107231%.

3.1.4 Modelo 4: modelo lineal generalizado, usando la variable comuna

Ahora, probaremos un nuevo modelo, tomando las mismas variables del modelo inicial, pero añadiendo la variable COMUNA.

3.1.4.1 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 9.769576, MAE: 2.141301, R2: 0.771830"

Para los datos de entrenamiento, se obtiene un MAE de 2.1413013, y un R2 de 0.7718301.

3.1.4.2 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 10.576090, MAE: 2.206781, R2: 0.765036"

Para los datos de validación del año 2019, se obtiene un MAE de 2.2067813, y un R2 de 0.7650363.

3.1.4.3 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] 3.057955

La variación entre el MAE de entrenamiento y validación fue de 3.0579549%; esta es la variación más baja obtenida hasta el momento, y nos da una buena señal de que no hay sobre entrenamiento. También, a pesar de que los R2 son ligeramente inferiores respecto a los modelos 2 y 3, pues son cercanos al 80%, el MAE fue mucho más bajo que en los anteriores modelos, y, teniendo en cuenta que el MAE es nuestro criterio de éxito, podemos decir que este modelo también es un buen candidato para realizar nuestras predicciones.

3.1.4.4 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 23.711105, MAE: 3.286509, R2: -0.051873"

Para los datos de validación del año 2020, se obtiene un MAE de 3.2865094, y un R2 de -0.0518735.

3.1.4.5 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 53.48188

La variación entre el MAE de entrenamiento y validación es de 53.4818795%.

3.1.5 Modelo 5: modelo lineal generalizado, usando las variables clase y comuna

Finalmente, probaremos un último modelo, usando aquellas variables que tuvieron el mejor MAE en los modelos anteriores, es decir, CLASE y COMUNA. Se incluirán también las variables del modelo inicial.

3.1.5.1 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 4.050132, MAE: 1.169533, R2: 0.711464"

Para los datos de entrenamiento, se obtiene un MAE de 1.1695326, y un R2 de 0.7114642.

3.1.5.2 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 4.131718, MAE: 1.161423, R2: 0.711311"

Para los datos de validación del año 2019, se obtiene un MAE de 1.1614232, y un R2 de 0.7113108.

3.1.5.3 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] -0.6933947

La variación entre el MAE de entrenamiento y validación fue mínima, de tan solo -0.6933947%; este dato nos ayuda a estar muy seguros de que no hay sobre entrenamiento. Con este modelo también conseguimos el MAE más pequeño de todos, cercano a 1, y el R2 cuadrado sigue siendo bueno, superior al 70%. Por tanto, concluimos que este es el mejor modelo para predecir, según nuestro criterio de éxito.

3.1.5.4 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 5.094203, MAE: 1.361429, R2: 0.270443"

Para los datos de validación del año 2020, se obtiene un MAE de 1.3614289, y un R2 de 0.2704429.

3.1.5.5 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 16.40795

La variación entre el MAE de entrenamiento y validación fue de 16.4079461%.

3.2 Semanal

Una vez tenemos determinado el mejor modelo (5) para las predicciones diarias, podemos pasar a evaluarlo semanalmente para validar su eficiencia en plazos semanales.

3.2.1 Modelo seleccionado: modelo lineal generalizado, usando las variables clase y comuna

Veamos cómo se comporta este modelo para predecir la accidentalidad semanalmente. En este caso, las variables a utilizar serán FESTIVIDAD, SEMANA, CLASE y COMUNA.

3.2.1.1 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 4.617232, MAE: 1.210869, R2: 0.671063"

Para los datos de entrenamiento, se obtiene un MAE de 1.2108695, y un R2 de 0.6710634.

3.2.1.2 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 4.675601, MAE: 1.197070, R2: 0.673309"

Para los datos de validación del año 2019, se obtiene un MAE de 1.1970699, y un R2 de 0.6733088.

3.2.1.3 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] -1.13964

La variación entre el MAE de entrenamiento y validación fue muy pequeña, de tan solo -1.1396402%; este dato nos ayuda a estar muy seguros de que no hay sobre entrenamiento. Con este modelo también conseguimos un MAE muy pequeño, cercano a 1.2, y el R2 cuadrado no disminuyó demasiado, pues sigue estando cerca del 70%. Por tanto, concluimos que este modelo sigue siendo adecuado para realizar predicciones a nivel semanal, según nuestro criterio de éxito.

3.2.1.4 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 5.286550, MAE: 1.362827, R2: 0.242896"

Para los datos de validación del año 2020, se obtiene un MAE de 1.3628274, y un R2 de 0.2428963.

3.2.1.5 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 12.54948

La variación entre el MAE de entrenamiento y validación fue de 12.5494828%.

3.3 Mensual

Finalmente, evaluaremos el modelo 5 de manera mensual, para validar su eficacia en este caso.

3.3.1 Modelo seleccionado: modelo lineal generalizado, usando las variables clase y comuna

Veamos cómo se comporta este modelo para predecir la accidentalidad mensualmente. Las variables a usar son FESTIVIDAD, MES, CLASE y COMUNA.

3.3.2 Predicción y Evaluación para los datos de Entrenamiento

## [1] "MSE: 4.607196, MAE: 1.210541, R2: 0.671768"

Para los datos de entrenamiento, se obtiene un MAE de 1.2105415, y un R2 de 0.6717679.

3.3.3 Predicción y Evaluación para los datos de Validación en el año 2019

## [1] "MSE: 4.660208, MAE: 1.195720, R2: 0.674384"

Para los datos de validación del año 2019, se obtiene un MAE de 1.1957197, y un R2 de 0.6743843.

3.3.4 Comparación entre las métricas de entrenamiento y validación (2019)

## [1] -1.224394

La variación entre el MAE de entrenamiento y validación fue muy pequeña, de tan solo -1.2243936%; este dato nos ayuda a estar muy seguros de que no hay sobre entrenamiento. Con este modelo también conseguimos un MAE muy pequeño, cercano a 1.2, y el R2 cuadrado no disminuyó demasiado, pues sigue estando cerca del 70%. Por tanto, concluimos que este modelo sigue siendo adecuado para realizar predicciones a nivel semanal, según nuestro criterio de éxito.

3.3.5 Predicción y Evaluación para los datos de Validación en el año 2020

## [1] "MSE: 5.281337, MAE: 1.361683, R2: 0.243643"

Para los datos de validación del año 2020, se obtiene un MAE de 1.3616832, y un R2 de 0.2436428.

3.3.6 Comparación entre las métricas de entrenamiento y validación (2020)

## [1] 12.48546

La variación entre el MAE de entrenamiento y validación fue de 12.4854635%.

4. Predicción

4.1 Comportamiento Accidentes reales vs Predichos 2019

En la siguiente gráfica se muestra la cantidad de accidentes ocurridos a lo largo del año 2019.

Para el año 2019 la cantidad de accidentes predichos por el modelo se asemeja a la cantidad de accidentes reales ocurridos en el mismo año. Se puede observar que los accidentes predichos por el modelo tienen un patrón de comportamiento similar a los datos reales pasado el mes 4. A pesar de que anterior al mes 4 existen diferencias considerables, la similitud general de ambos nos lleva a concluir que el modelo hace predicciones en un rango aceptable.

4.2 Comportamiento Accidentes reales vs Predichos 2020

En la siguiente gráfica se muestra la cantidad de accidentes ocurridos a lo largo del año 2020.

Se puede observar que el modelo de predicción logra replicar el comportamiento de accidentes para el año 2022 al menos en estructura (subidas, bajadas, picos y caídas). Aun así, existe una diferencia importante entre la cantidad de accidentes reales y predichos a partir del mes número 2 (febrero). La principal razón a la que se le podría atribuir esta diferencia es la pandemia del COVID-19, que inició a finales del año 2019 y tuvo apogeo en 2020, ocasionando confinamientos y limitando gravemente la movilidad y transporte. Se cree que por esta razón hay una gran diferencia en la cantidad de accidentes, pero no en el comportamiento a lo largo del año.

4.3 Prediccion en los Años 2021 y 2022

4.3.1 Predicion diaria 2021

A continuación, se muestra una tabla con las primeras 10 observaciones de las predicciones diarias obtenidas para el año 2021.

4.3.2 Prediccion diaria 2022

Se presenta también la tabla referente a las primeras 10 observaciones de las predicciones diarias obtenidas para el año 2022.

4.3.3 Prediccion semanal 2021

A continuación, se muestra una tabla con las primeras 10 observaciones de las predicciones semanales obtenidas para el año 2021.

4.3.4 Prediccion semanal 2022

Se presenta también la tabla referente a las primeras 10 observaciones de las predicciones semanales obtenidas para el año 2022.

4.3.5 Prediccion mensual 2021

A continuación, se muestra una tabla con las primeras 10 observaciones de las predicciones mensuales obtenidas para el año 2021.

4.3.6 prediccion mensual 2022

Se presenta también la tabla referente a las primeras 10 observaciones de las predicciones mensuales obtenidas para el año 2022.

5. Agrupamiento

5.1 Mapas de calor

Primero antes de comenzar con el clustering, propiamente primero se creará un mapa de calor de la accidentalidad dentro tanto de las comunas como en los barrios para representar de manera cruda, como se distribuye la accidentalidad de manera general.

5.1.1 Mapa de Calor de Accidentalidad por Comunas

A continuación, se muestra el mapa de calor de accidentalidad entre los años 2014 y 2020.

5.1.2 Mapa de Calor de Accidentalidad por barrios

Al hacer la transformación entre la base geográfica y la base depurada se perdieron algunos barrios ya que el archivo de la base de accidentalidad no cuenta registros de accidente en todos los barrios, asi quedo el mapa de calor con el número de accidentes por Barrio.

5.2 Clustering

5.2.1 Clustering por Gravedad del accidente

Creamos una base de datos que nos diga el número de accidentes por gravedad, asi mismo nos indica la lógica en la cual R toma el orden de los accidentes, siendo con heridos, con muertos y Solo danos. Esto será útil para la construcción correcta de la matriz para el agrupamiento.

Creamos una base de datos con la gravedad de los accidentes para ser usada para el agrupamiento

Para encontrar un k optimo se usarán la curva del codo, estadístico de Gap y el coeficiente de la silueta.

Método de la curva del codo

Como podemos ver en la curva del codo nos indica un k ideal con valor de 3 o 4

Método de la silueta

Con el método del coeficiente de la silueta nos muestra que un k ideal tiende a ser 2 ya que es el valor k con el puntaje del coeficiente de silueta más alto.

Estadístico de GAP

El estadístico de gap nos muestra que el primer cambio de signo ocurre en k=1.

Al analizar diferentes k se decide escoger un k prudente de k=4, el cual concordaría con el método de la curva del codo.

Grupos

Con la función summary clasificamos los grupos

El grupo 1 cuenta con una accidentalidad mayor al grupo 2 pero menor al grupo 3, por ende, se considera accidentalidad media-baja

##   Con_heridos      Con_muertos       Solo_danos      kmm.cluster
##  Min.   : 300.0   Min.   : 0.000   Min.   :  86.0   Min.   :1   
##  1st Qu.: 506.5   1st Qu.: 3.000   1st Qu.: 250.5   1st Qu.:1   
##  Median : 629.0   Median : 4.000   Median : 380.0   Median :1   
##  Mean   : 628.2   Mean   : 4.701   Mean   : 414.6   Mean   :1   
##  3rd Qu.: 740.5   3rd Qu.: 6.500   3rd Qu.: 507.0   3rd Qu.:1   
##  Max.   :1118.0   Max.   :15.000   Max.   :1143.0   Max.   :1

El grupo 2 cuenta con la menor accidentalidad de todos los grupos

##   Con_heridos     Con_muertos       Solo_danos     kmm.cluster
##  Min.   :  0.0   Min.   :0.0000   Min.   :  0.0   Min.   :2   
##  1st Qu.: 49.0   1st Qu.:0.0000   1st Qu.: 18.0   1st Qu.:2   
##  Median :125.0   Median :1.0000   Median : 72.0   Median :2   
##  Mean   :160.2   Mean   :0.9275   Mean   :100.6   Mean   :2   
##  3rd Qu.:248.0   3rd Qu.:2.0000   3rd Qu.:149.0   3rd Qu.:2   
##  Max.   :576.0   Max.   :6.0000   Max.   :686.0   Max.   :2

El grupo 3 cuenta con una accidentalidad parecida al grupo 4, por ende, se considera accidentalidad media-alta.

##   Con_heridos    Con_muertos      Solo_danos      kmm.cluster
##  Min.   : 719   Min.   : 5.00   Min.   : 540.0   Min.   :3   
##  1st Qu.: 952   1st Qu.: 9.50   1st Qu.: 984.5   1st Qu.:3   
##  Median :1195   Median :12.00   Median :1268.0   Median :3   
##  Mean   :1191   Mean   :12.61   Mean   :1261.0   Mean   :3   
##  3rd Qu.:1408   3rd Qu.:14.00   3rd Qu.:1588.0   3rd Qu.:3   
##  Max.   :2178   Max.   :22.00   Max.   :1965.0   Max.   :3

El grupo 4 cuenta con la mayor tasa de accidentalidad en todos los grupos

##   Con_heridos    Con_muertos      Solo_danos    kmm.cluster
##  Min.   :1083   Min.   :18.00   Min.   :1561   Min.   :4   
##  1st Qu.:1698   1st Qu.:21.75   1st Qu.:1894   1st Qu.:4   
##  Median :1974   Median :24.50   Median :2170   Median :4   
##  Mean   :1954   Mean   :25.00   Mean   :2253   Mean   :4   
##  3rd Qu.:2384   3rd Qu.:27.00   3rd Qu.:2677   3rd Qu.:4   
##  Max.   :2495   Max.   :41.00   Max.   :3434   Max.   :4

Al igual que con el mapa de calor los grupos que sean más rojos es donde tiende el grupo de mayor accidentalidad

5.2.2 Clustering por tipo de accidente

Creamos una base de datos que nos diga el número de accidentes por tipo , asi mismo nos indica la lógica en la cual R toma el orden de los accidentes, siendo Atropello, caída de Ocupante, Choque, Incendio, Otro y Volcamiento; esto será útil para la construcción correcta de la matriz para el agrupamiento.

Ahora hacemos un agrupamiento por el tipo de accidente ocurrido, creamos la base de datos para aplicar los métodos de agrupamiento y métodos para hallar un k optimo.

Para encontrar un k optimo se usarán los métodos de la curva del codo, Estadístico de Gap y el coeficiente de la silueta.

Método de la curva del codo

Como podemos ver en la curva del codo un k ideal puede ser un valor de 3 o 4.

Método de la silueta

Con el método del coeficiente de la silueta vimos que un k ideal tiende a ser 2 ya que es el valor de k donde el puntaje del coeficiente de la silueta es más alto.

Estadístico de GAP

El estadístico de gap nos muestra que el primer cambio de signo ocurre en k=5.

Al analizar diferentes k al igual que en el agrupamiento pasado consideramos mejor escoger un k=4 , gracias al metodo de la curva del codo.

Grupos

Con la funcion summary clasificamos los grupos

el grupo 1 cuenta con accidentalidad moderada en todos sus tipos de accidentes.

##    Atropello     Caida_de_Ocupante     Choque          Incendio     
##  Min.   : 28.0   Min.   : 23.0     Min.   : 201.0   Min.   :0.0000  
##  1st Qu.: 61.0   1st Qu.: 67.5     1st Qu.: 462.5   1st Qu.:0.0000  
##  Median : 98.0   Median : 96.0     Median : 641.0   Median :0.0000  
##  Mean   :104.5   Mean   :104.3     Mean   : 672.8   Mean   :0.1034  
##  3rd Qu.:127.5   3rd Qu.:126.5     3rd Qu.: 844.5   3rd Qu.:0.0000  
##  Max.   :281.0   Max.   :230.0     Max.   :1471.0   Max.   :1.0000  
##       Otro        Volcamiento     kmm.cluster
##  Min.   : 48.0   Min.   :14.00   Min.   :1   
##  1st Qu.: 94.0   1st Qu.:31.00   1st Qu.:1   
##  Median :122.0   Median :39.00   Median :1   
##  Mean   :125.7   Mean   :40.08   Mean   :1   
##  3rd Qu.:152.0   3rd Qu.:50.00   3rd Qu.:1   
##  Max.   :237.0   Max.   :82.00   Max.   :1

EL grupo 2 es el grupo con menor accidentalidad en general.

##    Atropello      Caida_de_Ocupante     Choque         Incendio      
##  Min.   :  0.00   Min.   :  0.00    Min.   :  0.0   Min.   :0.00000  
##  1st Qu.:  7.00   1st Qu.:  8.00    1st Qu.: 28.0   1st Qu.:0.00000  
##  Median : 24.00   Median : 20.00    Median :113.0   Median :0.00000  
##  Mean   : 33.93   Mean   : 27.99    Mean   :155.6   Mean   :0.02073  
##  3rd Qu.: 51.00   3rd Qu.: 41.00    3rd Qu.:233.0   3rd Qu.:0.00000  
##  Max.   :193.00   Max.   :171.00    Max.   :808.0   Max.   :1.00000  
##       Otro         Volcamiento     kmm.cluster
##  Min.   :  0.00   Min.   : 0.00   Min.   :2   
##  1st Qu.:  9.00   1st Qu.: 4.00   1st Qu.:2   
##  Median : 25.00   Median : 9.00   Median :2   
##  Mean   : 32.52   Mean   :11.63   Mean   :2   
##  3rd Qu.: 48.00   3rd Qu.:17.00   3rd Qu.:2   
##  Max.   :152.00   Max.   :52.00   Max.   :2

El grupo 3 cuenta con la mayor cantidad de accidentes de tipo de incendio y caída de ocupante.

##    Atropello     Caida_de_Ocupante     Choque        Incendio     
##  Min.   : 58.0   Min.   : 94.0     Min.   : 938   Min.   :0.0000  
##  1st Qu.: 94.0   1st Qu.:106.0     1st Qu.:1529   1st Qu.:0.0000  
##  Median :166.0   Median :150.0     Median :1747   Median :0.0000  
##  Mean   :161.2   Mean   :166.1     Mean   :1832   Mean   :0.3913  
##  3rd Qu.:195.5   3rd Qu.:179.5     3rd Qu.:2222   3rd Qu.:0.5000  
##  Max.   :355.0   Max.   :411.0     Max.   :2553   Max.   :2.0000  
##       Otro        Volcamiento      kmm.cluster
##  Min.   :108.0   Min.   : 38.00   Min.   :3   
##  1st Qu.:163.5   1st Qu.: 55.00   1st Qu.:3   
##  Median :196.0   Median : 80.00   Median :3   
##  Mean   :228.2   Mean   : 77.17   Mean   :3   
##  3rd Qu.:270.5   3rd Qu.: 86.00   3rd Qu.:3   
##  Max.   :504.0   Max.   :148.00   Max.   :3

El grupo 4 cuenta la mayor cantidad de accidentes de clase choque, atropello, otro y volcamiento.

##    Atropello      Caida_de_Ocupante     Choque        Incendio  
##  Min.   : 175.0   Min.   :134.0     Min.   :2138   Min.   :0.0  
##  1st Qu.: 222.2   1st Qu.:207.5     1st Qu.:2603   1st Qu.:0.0  
##  Median : 308.0   Median :266.5     Median :3049   Median :0.5  
##  Mean   : 369.3   Mean   :259.9     Mean   :3138   Mean   :0.5  
##  3rd Qu.: 423.2   3rd Qu.:307.0     3rd Qu.:3680   3rd Qu.:1.0  
##  Max.   :1006.0   Max.   :355.0     Max.   :4130   Max.   :1.0  
##       Otro        Volcamiento     kmm.cluster
##  Min.   :170.0   Min.   : 53.0   Min.   :4   
##  1st Qu.:249.2   1st Qu.: 94.0   1st Qu.:4   
##  Median :347.5   Median :117.0   Median :4   
##  Mean   :343.2   Mean   :120.5   Mean   :4   
##  3rd Qu.:418.5   3rd Qu.:158.5   3rd Qu.:4   
##  Max.   :540.0   Max.   :177.0   Max.   :4

Al igual que con el mapa de calor los grupos que sean más rojos es donde tiende el grupo de mayor accidentalidad.

Aplicación

Video promocional